找到密集的语义对应是计算机视觉中的一个基本问题,由于背景混乱,极端的阶层变化以及严重缺乏地面真理,在复杂的场景中仍然具有挑战性。在本文中,我们旨在通过丰富稀疏关键点注释中的监督信号来解决语义通信中标签稀疏性的挑战。为此,我们首先提出了一个教师学习范式,以产生著名的伪标签,然后制定两种新颖的伪造伪造策略。特别是,我们在稀疏注释周围使用空间先验来抑制嘈杂的伪标记。此外,我们还引入了损失驱动的动态标签选择策略,用于标签denoisising。我们通过两种学习策略的变体实例化范式:一个离线教师设置和共同的在线教师设置。我们的方法在三个具有挑战性的基准标准方面取得了显着的改进,并建立了新的最新技术。项目页面:https://shuaiyihuang.github.io/publications/scorrsan。
translated by 谷歌翻译
对比性语言图像预测在学习网络尺度数据的视觉文本联合表示方面取得了巨大的成功,这表明了各种图像任务的显着“零射”概括能力。但是,如何有效地将这种新的语言图像预处理方法扩展到视频域仍然是一个开放的问题。在这项工作中,我们提出了一种简单而有效的方法,该方法将预验证的语言图像模型直接适应视频识别,而不是从头开始预处理新模型。更具体地说,为了捕获沿时间维度框架的远距离依赖性,我们提出了一种跨框架注意机制,该机制明确地跨帧交换信息。这样的模块是轻量级的,可以无缝地插入验证的语言图像模型中。此外,我们提出了一个特定于视频的提示方案,该方案利用视频内容信息生成歧视性文本提示。广泛的实验表明,我们的方法是有效的,可以推广到不同的视频识别方案。特别是,在完全监督的设置下,我们的方法在Kinectics-400上获得了最高1的精度为87.1%,而与SWIN-L和Vivit-H相比,使用量少12倍。在零拍摄的实验中,我们的方法超过了当前的最新方法 +7.6%和 +14.9%,而在两个流行协议下,TOP-1的准确性。在少数拍摄的情况下,当标记的数据非常有限时,我们的方法优于先前的最佳方法 +32.1%和 +23.1%。代码和型号可在https://aka.ms/x-clip上找到
translated by 谷歌翻译
由于常见对象关系中严重的不平衡谓词分布,当前场景图(SGG)方法倾向于预测频繁的谓词类别,并且无法识别稀有类别。为了提高SGG模型在不同谓词类别上的鲁棒性,最近的研究集中在无偏见的SGG上,并采用了Mean Recess@K(MR@K)作为主要评估指标。但是,我们发现了关于这个事实上的标准指标MR@K的两个被忽视的问题,这使得当前无偏见的SGG评估脆弱且不公平:1)@K先生忽略了谓词之间的相关性,而无意识地打破了所有三胞胎预测,无论将所有三胞胎预测列为独立性,在谓词类别中,导致某些谓词被低估了。 2)MR@k忽略了不同谓词的组成多样性,并将过高的权重分配给某些过度简化类别的样本,具有有限的组合关系三重态类型。它与SGG任务的目标完全冲突,该任务鼓励模型检测更多类型的视觉关系三胞胎。此外,我们研究了对象和谓词之间的探索不足的相关性,这可以作为无偏SGG的简单但强大的基线。在本文中,我们完善了MR@K,并提出了两个公正SGG的互补评估指标:独立的均值回忆(IMR)和加权IMR(WIMR)。这两个指标是通过分别考虑组合关系三胞胎的类别独立性和多样性来设计的。我们通过广泛的实验将提出的指标与事实上的标准指标进行了比较,并讨论了以更可信赖的方式评估无偏SGG的解决方案。
translated by 谷歌翻译
动作质量评估(AQA)对于理解和解决任务的行动质量评估至关重要,这是由于微妙的视觉差异引起的独特挑战。现有的最新方法通常依靠整体视频表示来进行分数回归或排名,这限制了概括以捕获细粒度内的内部变化。为了克服上述限制,我们提出了一个时间解析变压器将整体特征分解为时间零件级表示。具体而言,我们利用一组可学习的查询来表示特定动作的原子时间模式。我们的解码过程将框架表示形式转换为固定数量的时间订购的零件表示。为了获得质量分数,我们根据零件表示采用最新的对比回归。由于现有的AQA数据集不提供时间零件级标签或分区,因此我们提出了对解码器的交叉注意响应的两个新颖损失功能:排名损失,以确保可学习的查询以满足交叉注意的时间顺序,并稀疏损失。鼓励部分表示更具歧视性。广泛的实验表明,我们提出的方法的表现优于三个公共AQA基准的先前工作,这是相当大的余量。
translated by 谷歌翻译
自然语言理解(NLU)模型倾向于依靠虚假的相关性(即数据集偏见)来在分布数据集上实现高性能,但在分布外部的数据集中的性能差。大多数现有的偏见方法通常都以偏见的特征(即引起这种虚假相关性的表面特征)来识别和削弱这些样品。但是,下降加权这些样品阻碍了从这些样品的无偏见部分学习的模型。为了应对这一挑战,在本文中,我们建议从特征空间的角度以细粒度的方式消除虚假的相关性。具体而言,我们引入了随机傅立叶特征和加权重采样,以将功能之间的依赖关系解释以减轻虚假相关性。在获得非相关的功能后,我们进一步设计了一种基于相互信息的方法来净化它们,这迫使模型学习与任务更相关的功能。对两个经过良好研究的NLU任务进行的广泛实验表明,我们的方法优于其他比较方法。
translated by 谷歌翻译
本文解决了几秒钟学习问题,旨在从几个例子中学习新的视觉概念。在几次拍摄分类中的常见问题设置假设在获取数据标签中的随机采样策略,其在实际应用中效率低下。在这项工作中,我们介绍了一个新的预算感知几秒钟学习问题,不仅旨在学习新的对象类别,还需要选择信息实例来注释以实现数据效率。我们为我们的预算感知几秒钟学习任务开发了一个元学习策略,该任务共同了解基于图形卷积网络(GCN)和基于示例的少量拍摄分类器的新型数据选择策略。我们的选择策略通过图形消息传递计算每个未标记数据的上下文敏感表示,然后用于预测顺序选择的信息性分数。我们在迷你想象网,分层 - 想象项目和omniglot数据集上进行广泛的实验验证我们的方法。结果表明,我们的几次学习策略优于一个相当大的边缘,这表明了我们的方法的功效。
translated by 谷歌翻译
场景图生成(SGG)由于其复杂的成分特性,仍然是一个具有挑战性的视觉理解任务。大多数以前的作品采用自下而上的两阶段或基于点的单阶段方法,通常遭受开销时间复杂性或次优设计假设。在这项工作中,我们提出了一种新颖的SGG方法来解决上述问题,其将任务制定为双层图形施工问题。为了解决问题,我们开发一个基于变换器的端到端框架,首先生成实体和谓词提议集,然后推断定向边缘以形成关系三态。特别地,我们基于结构谓词发生器开发新的实体感知谓词表示,以利用关系的组成特性。此外,我们设计了一个曲线图组装模块,以推断基于我们的实体感知结构的二分明场景图的连接,使我们能够以端到端的方式生成场景图。广泛的实验结果表明,我们的设计能够在两个具有挑战性的基准上实现最先进的或可比性的性能,超越大多数现有方法,并享受更高的推理效率。我们希望我们的模型可以作为基于变压器的场景图生成的强大基线。
translated by 谷歌翻译
高光谱成像是一种重要的传感技术,具有广泛的应用和环境科学,天气和地理/空间探索的地区的影响。高光谱图像(HSI)处理的一个重要任务是频谱空间特征的提取。利用多层网络(M-GSP)的最近开发的曲线图信号处理,这项工作提出了基于M-GSP特征提取的几种方法对HSI分段的方法。为了捕获联合光谱空间信息,我们首先为HSI定制一个基于张力的多层网络(MLN)模型,并为特征提取定义MLN奇异空间。然后,我们通过利用MLN谱聚类来开发无监督的HSI分段方法。通过MLN的聚类重新组合HSI像素,我们进一步提出了一种基于Superpixels的多分辨率融合的半监控HSI分类。我们的实验结果表明了HSI处理中M-GSP的强度和光谱 - 空间信息提取。
translated by 谷歌翻译
深度神经网络在许多以数据驱动和预测为导向的应用中表现出了出色的性能,有时甚至比人类表现更好。但是,他们最重要的缺点是缺乏解释性,这使得它们在许多现实世界中的吸引力降低了。当与犯罪判断,财务分析和医学诊断等不确定的道德问题或环境因素有关时,必须挖掘模型预测(解释模型知识)的证据,以说服人类。因此,研究如何解释模型知识对于学术研究和实际应用都至关重要。
translated by 谷歌翻译
Few-shot semantic segmentation aims to learn to segment new object classes with only a few annotated examples, which has a wide range of real-world applications. Most existing methods either focus on the restrictive setting of one-way few-shot segmentation or suffer from incomplete coverage of object regions. In this paper, we propose a novel few-shot semantic segmentation framework based on the prototype representation. Our key idea is to decompose the holistic class representation into a set of part-aware prototypes, capable of capturing diverse and fine-grained object features. In addition, we propose to leverage unlabeled data to enrich our part-aware prototypes, resulting in better modeling of intra-class variations of semantic objects. We develop a novel graph neural network model to generate and enhance the proposed part-aware prototypes based on labeled and unlabeled images. Extensive experimental evaluations on two benchmarks show that our method outperforms the prior art with a sizable margin.
translated by 谷歌翻译